合并文件前比较字典

By Ruben Geert van den Berg

引言

使用 [ADD FILES](/spss-add-files-command) 合并数据可能会导致产生无意义的数据。当变量或值在不同的文件中具有不同的含义时,就会发生这种情况。通过比较不同文件的字典,可以快速检测到编码不一致的变量。

问题是什么?

当使用 ADD FILES 合并文件时,不一致的字典信息将被丢弃。例如,如果变量 v1 在一个文件中表示“性别(gender)”,而在另一个文件中表示“就业状况(employment status)”,就会发生这种情况。在这种情况下,指示性别的数值似乎表示就业状况,反之亦然。有关演示,请参阅 SPSS Add Files - Cautionary Note

解决方案是什么?

SPSS 比较字典工具

SPSS 比较字典工具

  • 将要合并的文件放在同一个文件夹中。确保此文件夹中没有其他 .sav 文件。
  • 关闭所有打开的数据集。
  • 确保已安装 SPSS Python Essentials。
  • 下载并安装 SPSS Dictionary Checker。请注意,这是一个 SPSS 自定义对话框
  • 转到 实用程序(Utilities) SPSS 菜单箭头 搜索语法文件(Search Syntax Files)。将数据文件夹的路径复制粘贴到对话框中,然后选择是否要写入包含变量”保存列表(save list)“的 语法(syntax) 文件。单击 粘贴(Paste) 并运行粘贴的语法。
  • 单击该工具的 帮助(Help) 按钮将带您到本教程。 我们非常感谢您对此的反馈。

字典概述的解释

SPSS 比较字典工具结果

SPSS 比较字典工具结果

  • 此命令将始终生成一个新的数据集,其中包含字典比较的概述。
  • 每一行代表一个变量或一个值,包含值标签(value labels)和变量标签(variable labels),这些标签来自不同的源文件。
  • 空单元格 表示变量不存在于一个或多个源文件中,或者未定义标签。
  • 值不一致性 (val_incon) 是(不同标签的数量 - 1)。将空单元格计为不同的标签。
  • 变量不一致性 (var_incon) 是每个变量的所有值不一致性的总和。
  • 变量按变量不一致性降序排序。也就是说,“最差”的变量被移动到数据集的顶部。
  • 默认情况下,具有零变量不一致性的变量将从概述中删除。因此,完全一致的数据文件将导致生成一个空的新数据集。
  • 该命令不区分大小写。在比较之前,所有标签都将转换为小写。

关于语法文件的说明

  • 字典检查可能会写入一个新的 语法(syntax) 文件,其中包含所有编码一致的变量。
  • 该文件名为 “savelist.sps”,将出现在源数据文件夹中。
  • 如果此文件已存在,则将被覆盖。
  • 在使用之前,可以向此“保存列表(save list)”添加或从中删除变量。
  • 为了使用它,首先合并所有文件,然后在结果上运行此语法文件。它将删除所有不在“保存列表(save list)”中的变量。